如何自己在家DIY一个自动扫描仪?
Lockdown期间大家可能都遇到一个问题:扫描变得不方便了。以往在国内可以在个体复印店便宜扫描,在国外可以在学校图书馆的免费扫描仪上扫描,但现在这些都变得很难。不过我作为一个常年的手机扫描app用户,办法当然是有的!不仅成本超低,而且可能比以往使用的大扫描仪还要方便。
先来分析一下我们DIY需要解决的问题。一般我们在学校、复印店使用的扫描仪都是大型翻盖的,操作过的人都知道什么体验:且不说(1)长时间扫描对臂力的挑战,(2)要忍受的刺眼光照,以及(3)对书籍特别是书背的损毁,最致命的缺点就是(4)扫描信息容易丢失,如果靠联网可能文件一大就发不出去了,或者U盘一松动就功亏一篑。而且(5)扫描好多半也要自己将双页切成单页,想批量切分还得找Adobe Acrobat以外的软件。
现在不少更有钱的地方都更新了下图这种扫描仪,以上的问题1235都不存在了,支持单页扫描,书籍翻页和移动也很方便。但可惜在并不是哪里都有,而且像下图Wellcome Library这个还要收费。现在即使图书馆开了一部分阅览室,扫描仪因为有接触感染的风险经常还是不开放的。
而一般的手机扫描、手持扫描仪虽然不存在1235的问题,4的问题也因为存储在本地而稍好一些,最大的一个缺点就是(6)需要用手拿着。如果扫描一两篇文件还好,扫描书籍至少需要一手翻页,一手拿设备扫描,时不时还需要按着书把书页展开,这是很难忙过来的。而且(7)手动扫描的阴影也是个大问题,除非找到良好的光照,一不留神拿着手机的爪子就会在书页上留下阴影,后期处理都处理不掉。
在之前介绍Transkribus的文章中,我简单提到过一个READ开发的解决6、7问题的设备——扫描帐篷,如下图,他的原理就是支撑起手机,并且用帐篷里的LED灯提供没有阴影的光源。看起来很完美也很可爱,但是一看价格:€239!这个钱完全可以买一个很好的家用扫描仪了,买一帐篷干啥呢,给猫玩?我在这里讨论问题的前提就是不想花钱。要是有钱还不如直接买一台Wellcome那样的扫描仪自己用。
但是这只帐篷也给我们提供了灵感。如果自己DIY,有没有可能达到帐篷扫描那样的效果?我认为是可以的。综合上述问题,我们需要四样东西:
1.稳定无死角的光源;2.照相装置;3.固定照相装置的支架;4.可自动识别、裁切文档的扫描软件,不需要你一次次按快门。
以上四种,1可以通过调整房间里的灯光解决,我在学院公寓配的可调节台灯比较高,所以还算好办,实在不行在顶灯下面支一张桌子也一样。2的话自然是用手机。3的话也不难,我在剑桥的Flying Tigers买了个下面这样的支架,大家一看就明白了——就是淘宝上最普通的那种学生宿舍手机支架,谁没有一个呢?原价我记得是3或4镑,特价只需要1镑,跟国内价格差不多。Flying Tigers是个来自北欧的小号宜家,是在英国和欧洲城市里都有不少的连锁店,ebay上应该也有类似的。当然如果有更高级的支架如三脚架之类自然也可以用。
4扫描软件的话,我最推荐的就是Adobe Scan,没有之一。Adobe Scan的优点在于自动识别镜头里的文档并抓取,完全不需要你按快门,其他app如微软的Office Lens,国产的CamScanner我记得都是需要按的。而且扫描完直接上传pdf到Adobe document cloud,后面存到哪里都方便。如果不能解放双手,那我们架起这一套东西的努力就白费了。
有了这四样东西,剩下的就是调整布局。我在公寓里架设的方式如下:
如图,扭一扭手机支架,将手机平行固定在要扫描的书籍上方,光源从后方来,这样不会留下阴影。记得要打开自动快门(光圈A)和自动闪光灯(小闪电A)的选项,这样才是全自动扫描。
App上显示的界面是这样。人只要手伸出来翻书、挪动左右页就可以了,同时余光看一下扫描界面,保证每页都有抓取到。这个时候打开快门声音比较好,因为Adobe Scan默认每抓取一页都会有声音,听到声音就可以翻书了。
如果支架稍有晃动也没关系,系统可以自动等稳定的时候抓取。如果镜头偶尔失焦了,像拍照时一样点一下屏幕就可以重新聚焦。
如果桌面距离手机过远,视角过大,app自动探测的时候可能会把两页同时扫进去。这个时候只需要垫高一下就好了。加了一个垫子是不是顿时有了图书馆Rare books room的感觉?
扫描好一部分文档就可以点击右下角进入编辑界面。扫描的结果会自动裁剪掉多余的部分,并且处理成黑白,所以页面一般还是很干净的。如果有裁剪不当的可以进入Crop(裁剪)界面修改。如果偶尔扫入了书的侧面,或者扶书的手指,可以用Cleanup(橡皮擦)的工具擦掉那一部分。不过我一般都很佛系,文档里有个手指无所谓,Google books的电子书里还有手指呢。建议大家不要太洁癖,不然每一页都要修剪就花费太多时间了。
Adobe Scan的识别速度很快,所以有时候会出现这样的情况:你还没翻完页它就自动抓取了,把你的手拍了进去。这种时候就不要想着橡皮擦了,如果扫描过程中发现,直接重新扫描一遍,编辑时再把错误页删掉,这是最快的。如果是扫完了发现也可以删掉这页重新扫。
扫完导出pdf效果如图所示,如果是100页以下的文档,可以在Adobe Scan里直接OCR,如果100页以上可以导出到Adobe Acrobat里OCR。可以看到即使可能有一点歪斜,有一点边边角角,这些都是不影响OCR文字识别的。如果是扫描前面图上那种Fraktur字体还可以导入Transkribus进行文件识别。文件默认存储在Adobe document cloud上,可以另存到其他地方。
最后温馨提醒:
1.一次不要扫描太多。不管垫多高,扫描永远是一项低头的工作,时间长了对颈椎不好。2.翻书注意别划到手。Adobe Scan的自动抓取比较快,为了跟上它的速度翻书可能要比一般扫描时快一点。祝大家DIY顺利。